DAY28 鐵達尼生存預測-資料集

2023 iThome 鐵人賽

DAY 28

AI & Data

15th鐵人賽

610 瀏覽

從kaggle下載資料集之後，可以直接
import需要的套件

df = pd.read_csv('/titanic_data.csv')

載入資料集

df.head()

可以看到資料及包含名字、船票等級、是否生存、性別、年齡、上同為兄弟姐妹或配偶的數目、同為家族的父母及小孩的數目、船票編號、價格、登船港口

df.isnull().sum()

可以看到有哪些資料是有缺漏的，其中年齡和票價是最多缺漏的

在資料前處理的部分，可以刪除不需要的欄位、處理遺失資料，也可以用DAY7的方法將登船港口改為one-hot編碼
如下圖

再將處理好的資料分割為訓練及測試資料及就完成資料前處理了

系列文

深度學習概念和應用（PyTorch）共 30 篇

4 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

立即登入留言